Probabilidad y Estadística: La Ciencia de la Incertidumbre: Definir la Optimalidad en la Inferencia Estadística

En el vasto territorio de los datos estadísticos, somos cazadores buscando la verdad—el verdadero parámetro $\psi(\theta)$. Pero ¿cómo decidimos cuál flecha (estimador) es la mejor? Optimalidad no es una sensación vaga; es el arte matemático de minimizar la pérdida. Para encontrar el 'mejor' estimador, nos dirigimos hacia el Error Cuadrático Medio (MSE), que se descompone elegantemente en la tensión entre dos fuerzas fundamentales: Varianza y Sesgo.

Definir el Estándar Oro: Error Cuadrático Medio (MSE)

Para cuantificar cuán lejos está nuestra estimación $T$ del valor real $\psi(\theta)$, definimos el Error Cuadrático Medio (Definición 6.3.1):

$$MSE_\theta(T) = E_\theta((T - \psi(\theta))^2)$$

Este es la distancia cuadrada promedio entre nuestro estimador y el objetivo. Un estimador perfecto tendría un MSE de cero, pero en un mundo de ruido aleatorio, nos esforzamos por minimizarlo.

Teorema 8.1.1: La Arquitectura del Error

¿Por qué falla un estimador? El Teorema 8.1.1 proporciona el plano. Si $T$ tiene un segundo momento finito, el error respecto a cualquier constante $c$ viene dado por:

$E((T - c)^2) = \text{Var}(T) + (E(T) - c)^2$

Esta fórmula revela que el error cuadrado total se minimiza solo cuando elegimos $c = E(T)$. En el contexto de la inferencia, establecemos $c = \psi(\theta)$, lo que conduce a la famosa descomposición:

MSE = Varianza + Sesgo$^2$

El Compromiso entre Precisión y Exactitud

Imagina dos balanzas en un laboratorio de control de calidad:

El Reliquia Precisa: Da el mismo peso cada vez (baja varianza), pero está mal calibrada en 2 gramos (alto sesgo).
El Sabio Errático: Es correcto en promedio (sesgo cero), pero oscila salvajemente entre mediciones (alta varianza).

El Teorema 8.1.1 nos permite calcular exactamente cuál balanza proporciona el error total más bajo. A menudo, estamos dispuestos a aceptar una pequeña desviación sistemática (sesgo) si reduce drásticamente el ruido (varianza).

Ejemplo 8.1.1: Suficiencia e Información

La optimalidad está ligada a Información. Considera un espacio muestral $S = \{1, 2, 3, 4\}$. Si los resultados 2, 3 y 4 son igualmente probables bajo cualquier parámetro posible, portan la misma verosimilitud. Podemos definir un estadístico suficiente $U$ que agrupa estos resultados sin perder ninguna capacidad para realizar una inferencia óptima. Como se muestra en la simulación, si $L(\cdot|2) = L(\cdot|3) = L(\cdot|4)$, un estimador óptimo los trata como un solo evento informativo.

🎯 Principio Fundamental

Un estimador es óptimo cuando minimiza la pérdida esperada. Para la pérdida cuadrática, esto significa encontrar el punto donde la suma de la Varianza y el Sesgo² alcanza su mínimo absoluto.

PREGUNTA 1

Supongamos que (x₁, ..., xₙ) es una muestra de una distribución N(μ, σ₀²), donde μ es desconocido y σ₀² es conocido. Determina un estimador UMVU del segundo momento μ² + σ₀².

T = x̄² + σ₀²(1 - 1/n)

T = x̄² + σ₀²

T = x̄² - σ₀²/n

T = Σxᵢ² / n

PREGUNTA 2

Según el Teorema 8.1.1, ¿qué valor de 'c' minimiza la expresión E((T - c)²)?

c = ψ(θ)

$c = E(T)$

$c = Var(T)$

$c = 0$

PREGUNTA 3

En el contexto del Error Cuadrático Medio, ¿qué se define como Sesgo(T)?

E(T) - ψ(θ)

$Var(T) - E(T)$

ψ(θ) / E(T)

E(T²) - [E(T)]²

PREGUNTA 4

En el Ejemplo 8.1.1, ¿por qué U(s) es un estadístico suficiente cuando U(2)=U(3)=U(4)=1?

Porque las verosimilitudes L(θ|2), L(θ|3) y L(θ|4) son idénticas para todo θ.

Porque las probabilidades suman 1.

Porque s=1 tiene la mayor probabilidad.

Porque el espacio muestral es finito.

PREGUNTA 5

Si un estimador es insesgado, su MSE es igual a:

Su Varianza

Su Sesgo al cuadrado

Cero

El valor verdadero del parámetro